말의 이상을 넘어선다: 토큰화와 락킷 테스트 이해하기

언어의 숨겨진 구조

대규모 언어 모델(Large Language Models, LLMs)은 인간이 텍스트를 읽는 방식으로 '읽지' 않습니다. 우리가 글자와 단어를 보는 것과 달리, 모델은 수치적 조각이라고 부르는 단위로 정보를 처리합니다.토큰이 추상화를 이해하는 것은 프롬프트 엔지니어링과 시스템 설계에 능숙해지는 첫걸음입니다.

락킷 테스트

"lollipop"이라는 단어의 글자를 뒤집는 데 대규모 언어 모델이 어려워하는 이유는 무엇이며, "l-o-l-l-i-p-o-p"처럼 글자를 하이픈으로 분리하면 왜 즉시 성공할 수 있을까요?

문제점:표준 단어에서는 모델이 전체 단어를 나타내는 하나의 토큰만 보게 됩니다. 따라서 해당 토큰 내부의 개별 문자들에 대한 명확한 '지도'가 없습니다.
해결책:단어를 하이픈으로 분리함으로써, 모델이 각 문자를 개별적으로 토큰화하도록 강제할 수 있으며, 이는 작업 수행에 필요한 세밀한 '시각'을 제공합니다.

핵심 원칙

토큰 비율:일반적으로 1개의 토큰은 영어 기준 약 4자 정도이며, 약 0.75개의 단어에 해당합니다.
컨텍스트 창:모델은 고정된 '메모리' 크기를 가지고 있습니다(예: 4096 토큰). 이 제한은 사용자의 지시사항과 모델의 응답을 모두 포함합니다.

베이스 모델 vs. 지시어 튜닝 모델

베이스 언어 모델:거대한 데이터셋을 바탕으로 다음에 가장 가능성이 높은 단어를 예측합니다(예: "프랑스의 수도는 무엇입니까?"라는 질문 뒤에 "독일의 수도는 무엇입니까?"라고 이어질 수 있음).
지시어 튜닝 언어 모델:사용자 피드백을 통한 강화학습(RLHF)을 통해 특정 명령을 따르고 보조자 역할을 할 수 있도록 미세조정되었습니다.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?

A) 3,000 tokens

B) 750 tokens

C) 12,000 tokens

Question 2

Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?

A) It is faster at generating text.

B) It uses fewer tokens.

C) It is trained to follow specific tasks and dialogue formats.

Challenge: Token Estimation

Apply the token ratio rule to a real-world scenario.

You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.

Step 1

Estimate the number of tokens for a single daily report.

Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$

Step 2

Calculate the estimated cost to process one daily report.

Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$